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Abstract 



The method involves a neural network with an output magnitude characteristic which is time dependent. 
The characteristics are extracted from a predefined relation, and the time signal is obtained directly, 
without expensive frequency transformations, being a result of a learning process in the neural network (1). 
For each word to be learnt, a perception (2) is used, adapted to this word. Each perception is a single-layer 
neural network, and about 50 characteristics are extracted from the speech signal, and adapted to the 
neural network. The calculation depends on certain functions by the central microprocessor, which are 
functions from various probability studies. 
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© Verfahren und Schaltungsanordnung zur Spracherkennung und zur Sprachsteuerung von Vorrlchtungen 



I Verfahren und Schaltungsanordnung zur Spracherken- 
nung und zur Sprachsteuerung von Vorrichtungen. 
Zur Spracherkennung warden neuronals Netzs verwendet, 
die sehr rechenaufwendig sind. Die KJassrf izieru ngs-Merk- 
male mussen relativ aufwendig ermittert warden, um erne 
ruveriassige Funktion des Verfahrens zu gewihrteistan. 
Es hat sich gezeigt daft die Verwendung eines Transversal- 
filters in Verbindung mit einem Perzeptron-Netz sehr gut zur 
wanig rechenintensh/en Spracherkennung geeignet ist. 
Durch die Ermitdung einer Einhultenden und die Auftetlung 
des Signals in vier Teilbereiche wird der Rechenbedarf noch 
wetter veningert und die Zuveriasstgkett des Systems ge- 
steigert 

Die Erfindung kann insbesondere zur preiswarten Sprach- 
steuerung von Haushartsgeraten verwendet warden. 
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Beschreibung 

Die Erfmdung betrifft ein Verfahren und eine Schal- 
tungsanordnung zur Spracherkennung und zur Sprach- 
steuerung von Vorrichtungen. Die Erkennung der Kom- 
mandoworte erfolgt prinzipieli dadurch, dafi Komman- 
dowort-Signale digital auf gezeicbnet and Merkmale der 
digital aufgezeichneten Signale berecbnet werden, die in 
ein neuronales Netzwerk zur Ermittlung des zugehori- 
gen Kommandowortes gespeist werden. 

Spracherkennongsverfahren, die auf neuronalen 
Netzwerken basieren, sind vor allem auf der Basis von 
verborgenen Markov-Modellen (Hidden Markov-Mo- 
del) oder dem Dynamic Time Warping- Verfahren 
(DTW) bekannL Diesbezuglich sei auf die DE- 
PS 33 37 353 C2, DE-OS 42 41 688 Al, DE-OS 195 08 
711 Al und DE 44 17 557 Al verwiesen. AHe diese Ver- 
fahren sind sehr aufwendig und erfordern leistungsfahi- 
ge digitale Signalprozessoren zur Durchfuhrung einer 
Frequenzanalyse. AuBerdem mussen die Daten fur alle 
Sprachproben aufgezeichnet und permanent verfugbar 
gehalten werden, damit bei dem spateren Erkennungs- 
vorgang das ghnBchste Wort im Vergleich zu den 
Sprachproben herausgesucht werden kann. Dement- 
sprechend sind die Anforderungen an die Prozessorlei- 
stung und den Speicherbedarf relanv hoch und der Her- 
stellungspreis vor allem zur Anwendung bei Sprach- 
steuerungenzuhoch. 

Der Rechenaufwand ist audi bei der in der DE- 
OS 41 11 995 Al beschriebenen Schaltungsanordnung 
zur Spracherkennung relativ groB, da dort eine Spek- 
tralanalyse durchgefuhrt werden muB. 

In der DE-OS 39 31 638 Al wird ein Verfahren zur 
sprecheradaptiven Spracherkennung beschrieben, das 
keine Frequenztransformation mehr erfordert Aus dem 35 
Sprachsignal werden Merkmalsvektoren extrahiert, die 
in silbenorientierte Wortuntereinheiten segmentiert 
und klassifbriert werden. Pro Wortuntereinheh wird ein 
Vergleich mit Referenzmustern durchgefuhrt. Hierzu 
mussen die Referenzmuster fur einen gesamten Wort- 40 
schatz abgespeichert und fur den Vergleich verfugbar 
gehalten werden. 

In der DE-PS 39 35 308 CI wird zur Spracherken- 
nung die DurchfOhrung einer Differenzierung und einer 
Deltamodulation des abgetasteten Sprach-Zeitsignals 45 
vorgeschlagen. AnschlieBend wird die Anzahl der "On- 
sen" festgcstellt, die in Bytes vorhanden sind, die aus 
einer Anzahl aufeinanderf olgender Abtastwerte gebfl- 
det werden. Die Anzahl von "Einsen* pro Byte reprasen- 
tiert eine Hauptcodezahl, die fiber die Zeh auf getragen 50 
ein Balkenmuster bfldet, das mh Referenzmustern ver- 
gfichen wird. Auch hier ist eine Abspeicherung einer 
Viekahl von Referenzmustern erforderfich. 

In der DE-OS 41 03 913 Al ist eine Einrichtung zur 
Geratesteue rung beschrieben, bei dem ein Zeitmuster 55 
in bezug auf die Ton- und Pausendauer ermittek wird, 
das mit Referenzmustern verglichen wird. Die Unter- 
scheidungsfahigkeit von Worten aHein durch das Merk- 
mal der Ton- und Pausendauer ist in der praktischen 
Anwendung nkht ausreichend AuBerdem mussen pro 60 
Kommandowort Referenzmuster abgespeichert und 
verfugbar gehalten werden. 

In do* DE-OS 195 08 137 Al werden Worte schritt- 
weise klassifiziert, indem eine Teflwordange, eine An- 
zahl von Segmenten und eine Lauttypfolge ermitteh 65 
wird. FQr den nachfolgenden Klassifikationsschritt wer- 
den dann nur noch die Referenzworte betrachtet, bei 
denen die Merkmale innerhalb vorgegebener Toleran- 
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zenliegen. 

Zur Detekdon des Start- und Endpunktes eines Wor- 
tes wird in der DE-OS 44 22 545 Al vorgeschlagen das 
Sprechsignal blockweise zu unterteilen und Merkmals- 
5 vektoren zu bilden, indem pro Block die Signalenergie 
sowie die quadratische Differenz eines LPC (Linear- 
Predictive-Coding)-Cepstnmi-Koefnzienten in bezug 
auf einen mitderen IJ^-Cepstrum-Koeffizienten be- 
stimmt wird. Der Merkmalsvektor sowie ein mittlerer 
io Merkmalsvektor werden mit einem SchweQwert zur 
Detekdon des Start-ZEndpunktes verglichen. 

In der DE-OS 43 28 752 Al wird ein Spracherken- 
nungssystem vorgestellt, das ein mehrschichtiges neuro- 
nales Netzwerk erfordert Dadurch ist der Rechenauf- 
15 wand und die Anzahl von Netzwerkknoten uner- 
wunschthoch. 

Aufgabe 

20 Ausgehend von diesem Stand der Technik war es 
Aufgabe der Erfmdung, ein Verfahren und eine Schal- 
tungsanordnung zur Spracherkennung und zur Sprach- 
steuerung von Vorridhtungen mh vermindertem Re- 
chenaufwand zu schaffen, wobei nor eine geringe Lei- 
25 stung eines zentralen Mikroprozessors (CPU) und eine 
geringe Speicherkapazitat erforderlich ist. Das Verfah- 
ren und die Vorrichtung soQte dennoch sehr zuverlassig 
und leistungsfahig sein. 

30 Erfmdung 

Die Aufgabe wird durch das Verfahren nach An- 
spruch 1 und die Schaltungsanordnung nach Anspruch 
15 gelost. 

VorteDhafte Ausgestahungen sind in den Unteran- 
spruchen beschrieben. 

Es hat sich gezeigt, daB die Verwendung eines Trans- 
versalfilters in Verbindung mh einem Perzeptron-Netz 
sehr gut zur wenig rechenintensiven Spracherkennung 
geeignet ist Durch die Ermittlung einer Einhullenden 
und die AufteOung des Signals in vier TeObereiche wird 
der Rechenbedarf noch weiter verringert und die Zu- 
veriassigkeit des Systems gesteigert. 

Werden bei dem Anlernvorgang Sprechproben von 
mehreren Personen aufgenommen, ist das Verfahren in 
der Lage, eine gewisse Sprecherunabhangigkeh bei der 
Spracherkennung zu erreichen. 

Zeichnungen 

Die Erfindung wird nachfoigend anhand der Zeich- 
nungen naher eriautert Es zeigen: 

Fig- 1 Verfahreasprinzip zur Spracherkennung unter 
Verwendung eines kOnstlichen neuronalen Netzes; 

Fig. 2 Prinzip der Ermittlung der Einhullenden aus 
dem Zehsignal; 

Fig. 3 Berechnung der Merkmale jeweils fur die vier 
Wbrtbereiche; 
Fig. 4 Stark vereinfachtes digitales Transversalfilten 
Fig. 5 Schaltungsanordnung zur Spracherkennung. 

Ausnlhrungsbeispiele 

Das Verfahrensprinzip zur Spracherkennung unter 
Verwendung eines neuronalen Netzes ist in der Fig. 1 
dargestelh. Das Sprachsignal ist uber die Zeitachse auf- 
getragen. 

Das Prinzip des Verfahren besteht darm, daB Merk- 
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male zur Erkennung des Wortes ohne aufwendige Fre- hullende des Zeitsjgnab berecfanet. Zu diesem Zweck 

^SSSSZsJL direkt aus dem Zeitsignal extra- wird, wie in der Fig.2 sk^ert ^ i^Sw "T!™ 

Sert werden. Die extrahienen Merkmale werden an ein Teilintervall das jeweflige Maximum ermmeltund ge- 

ktSSes^euronales Netz (1) angelernL Fur jedes an- speichert Die .^^f^^t^^^^J^ 

zSendeWortwirdeinPerzeptrt>n(2)verwe n det,das 5 ten reduziert sicb dabei von 20 000 Abtastwerten _auf ca. 

atf^Ss Wort angelernt wird. Ein Perzeptron ist ein 150 Abtastwerte. Diese sind ausreicnend, urn die Emhul- 

££S£ZL nJInaJesNetz.daB^B.in^epercep- lende binreichend ■» " 

tron: a probabilistic model for information storage and hfillenden wird em Ted der Klassifikauons-Merkmale 

oreanization in the brain" von F. Rosenblatt in "Neuro- gewonnen. ,«..._„., • . - 

SS foundations of research", Massachusetts In- 10 Aus der Form der BnhuUenden lassen sich ton we»- 

SL of Techndbgy, 1988, & 92 ff , ausfuhrhch darge- tere Merkmale mit vergleichsweise genngein CTU-Auf- 

» 50 Merkmale aus dim wand berechnen. Die Verwendung der Emhullenden fur 

Spracfigna? e ^hiert und dem neuronalen Netz (I) diese MerJonalsbestimmungen macht das B^ zu- 

angelernt dem robuster gegen einzetne Storsignale und Vanano- 

Die Berechnung der Merkmale erfolgt durch Funk- 15 nenderAussprache. 
tionen. die auf dem zentralen MSkropiozessor ablaufen. 

Bieser ist vorteilhafterweise ein Mikrocontroller, der 3-BestimmiingdeslDurchsclimtts^^ 

Schaltungen zur Ansteuerung von Steuerelementen und tanmuienaen 

A.toK.andasiieuroiiafcNetiWooniiiert.imdiwar sttomt D«ser M«i*tad«sch «om to*** 

SS^SdaBtoiedesMertaidfetreiiiitdasMari- wen des Zeteigmles, da emsppecheod do ■ Hg.2 en 

^"'k -ewichtet sind und nicht einzelne Merkmale mit S edetekttert,obubertiauptemWortpspi^henwirte. 

ZL^^ol^enJ^nuber Merkmalen mit ^ Zu tfesem Zwe* wird geprtftob .derl J^^J 

eroBen Absolutwerten veraachlassigt werden. 30 wert der EinhuUenden deuthch und fur eme langere Zen 

Mr dte ntu zu klassifizierenden Merkmale muS ent- (mind. 02 Sekunden) Qberschntten w^Daraus wird 

sprechend die Multiplikation jeder Komponente erfol- zunichst ein Zeitpunkt bestnnmt, der als Wortmitte be- 

JL. zeichnetwird. : 



gen. 



Beschreibung der Merkmale 35 5. Detektion von Wortanfang und Wortende 

Im foteenden werden die Verfahrensscbritte zur Ausgehend von dieser Wortimtte j^sodann der 

«J^rh^ken«un? Wd zur Ernuttfune der Klassifika- Wortanfang und das Wortende gesucht Dazu muB em 

lon^rS^ fur^L%rac^3gS be^chriS^ ^ SchweDwert der Emntulenden untersctotten werden. 

^J-£3S«- ™ d dzmch filr langere Zcit unterschntten bleiben (Stil- 

sindvorgesehen. l evor und nach dem Wort). 

i^ru^X^Sn^zur Extrahierung 6. Bestimmung von Vorfcuf em und Nachfcuf ern 

SeTektion der Wortanwesenheh (kein Merkmal); aus der EinhOIlenden eine Ableimng bestumnL Die Be- 

5 Detektion von Wortanfang und Wortende (kein trage der Ableittmgen ™ < ^™.^f^£?%™* 

w , , v Endbereich des Wortes aursummiert Je grooer die er- 

^BeSungvonVoriaufernundNachlaufem; 50 haltenen Werte sini desto eher kann Wmmen 

7.i«nmmunider AnzahlderSaben; werden. daB Vor- tew. Nachlaufer vorhanden i smd. Mu 

iS^rSunldesWortesmvierTeflbereiche; diesem Merkmal w*d zugleich auch em MaB fur ihre 

9 Anwendung stark vereinfachter digitaler Filter; Intensrtatermittelt. 

^^S^m^^^^' 55 Z.BestimmungderAnzaMderSilben 

ILBestimmungder AnzaMderNuBdurdigauge. ^ ^ ^ ^ ^ ^ ^ 

1 Ermittlung statistischer GroBen einfachen Algorithmen ermhtelt werden, dabeispiels- 

i. unEKuung 5otu5u>«i« weise ^ Wort -zurfick" von manchen Sprechera mit, 

Zunachst werden einige einfache statistische GroBen 60 vonanderen ohne Pause f^^J^^fA 1 ^ 

aus dem Zeitsignal beredmet, wie der Mhtehvert des ObergSnge gibt Urn ein MaB d^zu^ten, obes 

w vtrianz. die Gesamtsumme des Signales eine Pause in der Wdrtmitte gibt. werden aus der En- 

f^S/SnZZ^T^ Gesamtsumme aes aignaies Ableitungen bestimmt und die Betrige der 

unddieWortdauer. Ableitungen im Bereich der Wortmitte aufsummiert. 

2. Ermittlung der Bnhullead.n zur Extrahierung von 65 * Unterte nung des Wortes in vier Teflbereiche 

Zur Bnsparung von Rechenzeh wird danach die Ein- MH Hflfe der EinhuIIenden kann das Wort in die vier 
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5 6 
gleichgroBen Teilbereiche 1 • Viertel, Z Viertel, 3. Viertel, digitalen Filtern auskommt, die aber in Verbindung mit 
4. Viertel unterteilt werden. Die Einteilung ist aus der dem Anlernvorgang des neuronalen Netzes dennoch zu 
Fig. 3 ersichtlich. Die im folgenden beschriebenen ex- guten Erkennungsergebnissen fuhrt 
trahierten Merkmale werden dann jeweils fur diese Insgesamt werden ca. 20 derartige Merkmale aus dem 
Teilbereiche, auch Abschnitte genannt, berechnet 5 Zeitsignal bestimmt und als Merkmai in das neuronale 

Dieses Vorgehen ist sinnvoll, da sich die Eigenschaf- Netz eingespeist Die guten Erkennungsraten basieren 
ten des Zeitsignales im Verlaufe der Aussprache eines wesentlich auf diesem Verfahren. 
Wortes andern. Es hat sich gezeigt daB eine feinere 

Unterteilung des Wortes in wesentlich mehr Abschnitte 10, Bestimmung der Signalenergie nach einer TiefpaB-, 
nicht sinnvoll ist, da sich damit die pro Zeiteinheit zu H> HochpaB-Fdterung 
verarbeitende Datenmenge erhdht sich aber die Ro- 

bustheit des Erkennungsalgorithmus hingegen verrin- Ferner wird ein einfacher digitaier HochpaB und ein 
gert, da Einzelheiten des Zeitsignales und zufallige TiefpaB verwendet, der aus der Literatur, z. B. aus "Ein- 
Schwankungen ein zu groBes Gewicht erhalten, fanning in die digitaie Signalve^a^beitung , * , H. Gdtz, 

15 Teubner Studienskipten, Stuttgart, 1990, hinreichend 
9. Verwendung von stark vereinf achten digitalen Filtern bekannt ist Der Ausgangswert des Filters wird nach 

Betragsbildung zur Ermitdung einer "Signalenergie" fur 
In Lehrbuchern, z.B. in "Einfuhrung in die digitaie jedes Wortviertel aufsummiert. 
Signalverarbeitung", H. Gdtz, Teubner Studienskipten, 

Stuttgart, 1990, S. 110, wurde gezeigt daB die FFT (Fast » 1 L Anzahl der NuUdurchgange 

Fourier Transform) im Prinzip als eine Filterbank aus f . 

vielen einzelnen Bandpassen verstanden werden kann. Die Anzahl der NuUdurchgange wird fur jedes Wort- 

Dabei ist der Aufwand fur die Realisierung dieser Band- viertel bestimmt und als Merkmai verwendet Dieses 

passe reladv groB. Merkmai gibt Hinweise auf die Tonhdhe. 

Der Aufwand kann jedoch deudich reduziert werden. 25 Die Schaltungsanordnung zur Spracherkennung und 
Im Verlaufe der Entwicklung des Oegenstandes der Er- Sprachsteuerung ist in der Fig- 5 dargesteflt In einer 
findung hat sich gezeigt, daB extrem vereinfachte digita- Wandlerschaltung werden Sprachsignale in analoge 
le Filter in Kombinadon mit einem Perzeptron-Netz- elektrische Signale mit Hilfe eines Mikrofons und eines 
werk zu guten Ergebnissen bei der Spracherkennung Verstarkers umgewandelt Mit der Wandlerschaltung ist 
fuhren. Zu diesem Zweck wird das folgende, stark ver- 30 eine Abtastschaltung zur Erzeugung einer Anzahl digi- 
einf achte digitaie Transversalfilter verwendet das in der taler Abtastwerte aus dem analogen elektrischen Signal 
Fig. 4 dargestellt ist verbunden. Die die digitalen Abtastwerte werden in ei- 

Es wird jeweils die Differenz aus dem aktueUen Ab- nem Speicher abgelegt Ein zentraler Mikroprozessor 
tastwert zt des Sprachsignales mit einem urn die Zeit T (CPU) ist zur Ausfuhrung von Bef ehlsf olgen zur Sprach- 
alteren Wert zt-x gebfldet: dt =* zt— zt-r. Die Absolut- 3* erkennung and zur Steuerung der Schaltungsanordnung 
werte der Differenz eines Teilbereichs (Wortviertels) vorgesehen. Die Schaltung wird mit einer Taktgenera- 
werden jeweils fur das U 2, 3. und 4. Wortviertel auf- torschaltung getaktet Die Befehlsfolgen zur Spracher- 
summiert und als Merkmai dem Perzeptron zugefuhrt kennung werden in einem Speicher, z. B. in einem 
Es werden die Merkmale Si, S* S3, S4 ermitteit: PROM, f est abgelegt Eine Schalterkombination ist zur 

40 Einstellung binarer Zahlen vorgesehen, wobei die Stei- 
lung der Schalterkombination dem Mikroprozessor die 
Anzahl voneinander unterschiedlicher Kommandowor- 
Si = Nfc ~" z t— xl * te anzeigt Ein Anlemzyklus fur die Anzahl Kommando- 

1 worte kann mit einem Taster gestartet und gestoppt 

45 werden. Wahrend des Anlemzyklus werden Komman- 
doworte aufgezeichnet und jeweils pro Kommando- 
£j wort mit Hflfe des Mikroprozessors Referenzmerkmale 

So = 3^ [z*- — z xl / **er <hgHalen Abtastwerte bestimmt Die Referenzmerk- 

1 ' male werden in einem SRAM-Speicher abgelegt Eine 

t 2 so Segmentanzeige ist zur Anzeige von Zahlen vorgese- 

hen, die jeweils einem Kommandowort oder dem Be- 
1 4 triebsmodus der Schaltungsanordnung; inbesondere des 

S 5 =y | 2 . — z t -I ; Aiderazyklus oder eines Erkennungszyidus zur Steue- 

1 1 ' rung, entsprechen. In einer bevorzugten Ausfuhrungs- 

tj 55 form ist die mh der Wandlerschaltung vcrbundene Ab- 

tastschaltung zur Erzeugung einer Anzahl digitaier Ab- 
t s tastwerte aus dem analogen elektrischen Signal ein Be- 

Sa=^ \zt- — Zi-_^| standreil des zentralen Mikroprozessors (CPU). 

* x-t I c c xi • Zeitsignal des gesprochenen Wortes wird mit 

t 4 go einem Mikrophon aufgenommen und mit einer Abta- 

strate von 10 KHz aufgezeichnet Die Aufzeichnung ist 
Durch die Zeitverzogerung und die Differenzbfldung damit geringfugig besser als Telefonqualitat Me Auf- 
ergibt sich ein frequenzselektives Verhahen des Merk- nahmedauer betragt etwa 2 Sekunden. Der Mikrocont- 
mals, das von x abhangt roller beginnt mh der Aufzeichnung erst, nachdem ein 

Werden unterschiedliche Verzogerungszeiten x ge- 65 Signal, das einen Schwellwert uberschreitet, registriert 
wahlt, so ist das Merkmai jeweils fur verschiedene Fre- wurde. Durch diese MaBnahme wird etwas Speicher- 
quenzbereiche sensiuv, so daB eine Frequenzanaryse platz beim Aufzeichnen des Signales eingespart, zudem 
des Wortes erfolgt die mh vergleichsweise schlechten wartet das System auf die SprachauBerung. Die Aus- 
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wertung beginnt erst, nachdem das Signal auf gezeichnet 
wurde. 

Patentanspruche 5 

1. Verfahren zur Spracherkennung und zur Sprach- 
steuerung von Vorrichtungen, wobei ein Sprachsi- 
gnal aufgezeichnet digitalisiert und Merkmale des 
Sprachsignals ermittelt werden und jeweils mit Hil- ^ 
fe eines neuronaien Netzwerkes anhand der ermit- 
telten Merkmale des Sprachsignals das zum 
Sprachsignal zugehorige Wort bestimmt wird, ge- 
kennzeichnet durch 

a) Transversalfilterung des digitalen Sprachsi- 
gnals fur eine AnzahJ von Frequenzbereichen; 

b) Ennittlcmg von Merkmalen M T pro Fre- 
quenzbereich in Abhangigkeit von den Ergeb- 
nissen der Transversalfilterung des jeweiligen 
Frequenzbereichs; ^ 

c) Bestimmung eines Wortes anhand der 
Merkmale M? mit Hilfe eines Perzeptron-Net- 
zes. 

2. Verfahren nach Anspnich 1, gekennzeichnet 
durch Transversalfilterung des digitalen Sprachsi- 
gnals mit den Schritten von: 

a) Berechnung einer Anzahl von Differenzen 
dt von jeweils einem aktuellen Abtastwert zt 
mit einem um die Verzogerungszeit x zuruck- 
liegenden Abtastwert zt-r fur eine Reihe von ^ 
Zeitpunkten t des digitalisierten Sprachsignals; 

b) Berechnung jeweils der Absolutwerte der 
Anzahl von Differenzen; 

c) Biklung der Summe S* der Absolutwerte der 
Anzahl von Differenzen <fc; ^ 

wobei jede Summe St ein Merkmal M T fur das Per- 
zeptron-Netz ist 

3. Verfahren nach Anspnich % gekennzeichnet 
durch Ausfuhrung der Transversalfilterung fur eine 
Reihe von Verzdgerungszeiten x. ^ 

4. Verfahren nach einem der vorhergehenden An- 
spruche, gekennzeichnet durch Bestimmung der 
Einhuflenden des Sprachsignals, wobei jeweils in 
einem Teflintervafl das jeweilige Maximum ermit- 
telt und gespeichert wird. 45 

5. Verfahren nach Anspnich 4, gekennzeichnet 
durch Bestimmung des Durchschnittswertes der 
Emhflflenden. 

6. Verfahren nach einem der vorhergehenden An- 

sp ruche, gekennzeichnet durch Ermittlung des Mit- ^ 
telwertes des Signals, der Varianz, der Gesamtsum- 
me des Signales und der Wortdauer. 

7. Verfahren nach einem der vorhergehenden An- 
sprQche, gekennzeichnet durch Enteilung des 
Sprachsignals in vier Teilbereiche. ^ 

8. Verfahren nach Anspnich 7, gekennzeichnet 
durch digitale HochpaB- und TiefpaBfilterung je- 
weils der Teilbereiche des Sprachsignals, wobei der 
Ausgangswert des Filters fur jeden Teilbereich auf- 
summiertwird. 

9. Verfahren nach einem der vorhergehenden An- 
sprGche, wobei eine Priifung erfolgt ob der Durch- 
schnittswert der Einhuflenden deutlich und fur eine 
f estgelegte Mindestzeit Gberschritten wurde, um zu 
crkcnnen, ob ein Wort gesprochen wurde. 

la Verfahren nach einem der vorhergehenden An- 
sprQche, gekennzeichnet durch Besthnmen der 
Wortmitte durch Halbierung der Zeit bestimmt in 
der der Durchsdhnittswert der EinhQllenden deut- 
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lich und fur eine f estgelegte Mindestzeit uberschrit- 
ten ist, und Verwenden der Wortmitte als Merkmai 
fur das Perzeptron-Netz. 

1 1. Verfahren nach einem der vorhergehenden An- 
spriiche, gekennzeichnet durch Bestimmen des 
Wortanfangs und des Wortendes durch Vergleich 
der EinhQllenden mh einem Schweliwert wobei bei 
einem Wortende der Schweliwert eine festgelegte 
Zeit unterschritten sein muB. 

12. Verfahren nach einem der vorhergehenden An- 
spruche, gekennzeichnet durch Erkennen von Vor- 
oder Nachlauf era durch Bestimmung von Ableitun- 
gen a us der Einhuflenden und Aufsummierung der 
Betrage der Ableitungen im Anfangsbereich und 
Endbereich des Wortes, wobei ein Vor- bzw. Nach- 
laufer vorhanden ist wenn ein festgelegter Wert 
Qberschritten ist und Verwenden der Existenz und 
der Intensitat der Vor- und Nachlaufer als Merk- 
mal fur das Perzeptron-Netz. 

13. Verfahren nach einem der vorhergehenden An- 
spruche, gekennzeichnet durch Bestimmen der An- 
zahl von Silben eines Wortes durch Berechnung 
von Ableitungen der Einhuflenden und Aufsummie- 
rung der Betrage der Ableitungen im Bereich der 
Wortmitte und Verwenden der Anzahl von Silben 
als Merkmal fur das Perzeptron-Netz. 

14. Verfahren nach einem der vorhergehenden An- 
spruche, gekennzeichnet durch Bestimmen einer 
Anzahl der NuUdurchgange fur jedes Wortviertel 
und Verwenden der Anzahl der NuUdurchgange als 
Merkmal fur das Perzeptron-Netz. 

15. Schaltungsanordnung zur Sprachsteuerung von 
Vorrichtungen mit einer Wandlerschaltung zur 
Umwandlung von Sprachsignalen in analoge elek— 
trische Signale, einer mit der Wandlerschaltung 
verbundenen Abtastschaltung zur Erzeugung einer 
Anzahl digitaler Abtastwerte aus dem analogen 
elektrischen Signal, einem Speicher fur die digita- 
len Abtastwerte, einer Taktgeneratorschaltung, ei- 
nem zentralen Mikroprozessor (CPU) zur Ausfuh- 
rung von Befehlsfolgen zur Spracherkennung und 
einem Speicher fur die Befehlsfolgen zur Spracher- 
kennung, wobei der zentrale Mikroprozessor mh 
den Schaltungen und Speichern zur Ansteuerung 
und Datenubertragung verbunden ist gekenn- 
zeichnet durch 

eine Schalterkombination zur Einstellung binarer 
Zahlen, wobei die Steflung der Schalterkombina- 
tion dem Mikroprozessor die Anzahl voneinander 
unterschiedlicher Kommandoworte anzeigt 
einem Taster zum Starten und Stoppen eines An- 
lerazyklus, in dem Kommandoworte aufgezeichnet 
und jeweils pro Kommandowort mit Hilfe des Mi- 
kroprozessors Referenzmerkmale der digitalen 
Abtastwerte bestimmt werden, 
einen fest programmierbaren Speicher zur Spei- 
cherung der Referenzmerkmale. 

16. Schaltungsanordnung nach Anspnich 15, ge- 
kennzeichnet durch eine Segmentanzeige zur An- 
zeige von Zahlen, die jeweils einem Kommando- 
wort oder dem Betriebsmodus der Schaltungsan- 
ordnung, inbesondere des Anlernzyklus oder eines 
Erkennungszyklus zur Steuerung, entsprechen. 

17. Schaltungsanordnung nach einem der Ansp ru- 
che 15 oder 16, dadurch gekennzeichnet daB die 
mh der Wandlerschaltung verbundene Abtast- 
schaltung zur Erzeugung einer Anzahl digitaler Ab- 
tastwerte aus dem analogen elektrischen Signal ein 
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Bestandteil des zentralen Mikroprozessors (CPU) 
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